生成API (プレビュー)
ONNX Runtime generate() API
Section titled “ONNX Runtime generate() API”注意: このAPIはプレビュー版であり、変更される可能性があります。
ONNX Runtimeを使用して生成AIモデルを実行します。
ソースコードはこちらで確認できます:https://github.com/microsoft/onnxruntime-genai
このライブラリは、トークン化やその他の前処理、ONNX Runtimeによる推論、ロジット処理、検索とサンプリング、KVキャッシュ管理など、ONNXモデルの生成AIループを提供します。
ユーザーは、高レベルのgenerate()メソッドを呼び出すか、ループ内でモデルの各イテレーションを実行し、一度に1つのトークンを生成し、オプションでループ内で生成パラメータを更新することができます。
トークンシーケンスを生成するための貪欲/ビームサーチとTopP、TopKサンプリングをサポートしており、繰り返しペナルティなどの組み込みロジット処理も備えています。カスタムスコアリングも簡単に追加できます。
その他のサポートされている機能には、チャットテンプレートの適用や構造化出力(ツール呼び出し用)などがあります。